检索结果

Select

1. 基于ResNet的音频场景声替换造假的检测算法

董明宇, 严迪群

《计算机应用》唯一官方网站 2022, 42 (6): 1724-1728. DOI: 10.11772/j.issn.1001-9081.2021061432

摘要（325）

HTML （15）

PDF （2217KB）（111）

针对造假成本低、不易察觉的音频场景声替换的造假样本检测问题，提出了基于ResNet的造假样本检测算法。该算法首先提取音频的常数Q频谱系数（CQCC）特征，之后由残差网络（ResNet）结构学习输入的特征，结合网络的多层的残差块以及特征归一化，最后输出分类结果。在TIMIT和Voicebank数据库上，所提算法的检测准确率最高可达100%，错误接收率最低仅为1.37%。在现实场景下检测由多种不同录音设备录制的带有设备本底噪声以及原始场景声音频，该算法的检测准确率最高可达99.27%。实验结果表明，在合适的模型下利用音频的CQCC特征来检测音频的场景替换痕迹是有效的。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于深度残差网络的语音隐写分析方法

任奕茗, 王让定, 严迪群, 林昱臻

计算机应用 2021, 41 (3): 774-779. DOI: 10.11772/j.issn.1001-9081.2020060763

摘要（396）

PDF （1026KB）（710）

针对目前以WAV格式语音为载体的最低有效位（LSB）隐写方法的检测性能较低的问题，提出了一种基于深度残差网络的语音隐写分析方法。首先，通过多组高通滤波器组成的固定卷积层来计算输入语音信号的残差信号，并利用截断线性激活单元对得到的残差信号进行截断操作；然后，通过卷积层与设计的残差块的堆叠来构建深度网络，以提取深层次的隐写特征数据；最后，利用全连接层与Softmax层组成的分类器输出最终的分类结果。实验结果表明，在Hide4PGP和LSBmatching两种隐写方法的不同密信嵌入率下，所提出模型的检测正确率都要优于现有的基于卷积神经网络（CNN）的隐写分析方法。对于0.1 bps嵌入率的Hide4PGP隐写方法，该隐写分析模型的检测正确率比LinNet提高了近7个百分点。

参考文献 | 相关文章 | 多维度评价

Select

3. 融合残差网络和极限梯度提升的音频隐写检测模型

陈朗, 王让定, 严迪群, 林昱臻

计算机应用 2021, 41 (2): 449-455. DOI: 10.11772/j.issn.1001-9081.2020060775

摘要（444）

PDF （1165KB）（655）

针对目前音频隐写检测方法对基于校验网格编码（STC）的音频隐写检测准确较低的问题，考虑到卷积神经网络（CNN）在抽象特征提取上的优势，提出一种融合深度残差网络（DRN）和极限梯度提升（XGBoost）的音频隐写检测模型。首先，利用固定参数的高通滤波器（HPF）预处理输入的音频，并通过三个卷积层提取特征，其中第一个卷积层使用了截断线性单元（TLU）激活函数，使得模型适应低信噪比（SNR）下的隐写信号分布；其次，通过五个阶段的残差块和池化操作进一步提取抽象特征；最后，经过全连接层和Dropout层将提取的高维特征作为XGBoost模型的输入进行分类。分别对STC隐写和最低有效位匹配（LSBM）隐写进行检测，实验结果表明，所提出的模型在0.5 bps、0.2 bps、0.1 bps三种嵌入率下，即音频每个采样值平均修改的比特数分别为0.5、0.2、0.1时，对子校验矩阵高度为7的STC隐写的平均检测准确率分别为73.27%、70.16%、65.18%，对LSBM隐写的平均检测准确率分别为86.58%、76.08%、72.82%。相较于传统提取手工特征的隐写检测方法和深度学习隐写检测方法，所提模型对两种隐写算法的平均检测准确率均提高了10个百分点以上。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于卷积神经网络框架的回声隐藏检测方法

王杰, 王让定, 严迪群, 林昱臻

《计算机应用》唯一官方网站 2020, 40 (2): 375-380. DOI: 10.11772/j.issn.1001-9081.2019081400

摘要（364）

HTML （1）

PDF （713KB）（416）

回声隐藏是一种以音频为载体的隐写技术，目前针对回声隐藏的隐写分析方法主要以倒谱系数作为手工特征进行分类。然而，这些传统方法普遍在回声幅度较低时检测性能不高。针对回声幅度较低的情况，提出一种基于卷积神经网络（CNN）的回声隐藏隐写分析方法。首先利用短时傅里叶变换（STFT）提取音频的幅度谱系数矩阵作为浅层特征，然后设计了一个卷积神经网络框架对浅层特征进行进一步的深度特征提取，网络框架中包含了四个卷积模块以及三层全连接层，最后分类结果以Softmax进行输出。在三种经典的回声隐藏算法上对提出的方法进行了隐写分析实验评估，实验结果表明，该方法在低回声幅度条件下的检测率分别为98.62%、98.53%和93.20%，与目前所提出的传统基于手工特征的方法和基于深度学习的方法相比，检测性能提升10%以上。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 针对多种处理痕迹的数字语音取证算法

向立, 严迪群, 王让定, 李孝文

计算机应用 2019, 39 (1): 126-130. DOI: 10.11772/j.issn.1001-9081.2018071596

摘要（501）

PDF （728KB）（303）

现有的数字语音取证研究主要集中于对单一的某种操作进行检测，无法对不相关的操作进行判断。针对该问题，提出了一种能够同时检测经过变调、低通滤波、高通滤波和加噪这四种操作的数字语音取证方法。首先，计算语音的归一化梅尔频率倒谱系数（MFCC）统计矩特征；然后通过多个二分类器对特征进行训练，并组合投票得到多分类器；最后使用该多分类器对待测语音进行分类。在TIMIT以及UME语音库上的实验结果表明，归一化MFCC统计矩特征在库内实验中均达到了97%以上的检测率，且在对MP3压缩鲁棒性测试的实验中，检测率仍能保持在96%以上。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于修正倒谱特征的回放语音检测算法

林朗, 王让定, 严迪群, 李璨

计算机应用 2018, 38 (6): 1648-1652. DOI: 10.11772/j.issn.1001-9081.2017112822

摘要（518）

PDF （932KB）（297）

随着语音技术的发展，以回放语音为代表的各种仿冒语音给声纹认证系统及音频取证技术带来了极大挑战。针对回放语音对声纹认证系统的攻击问题，提出一种基于修正倒谱特征的检测算法。首先，采用变异系数来分析原始语音和回放语音在频域上的差异；然后，有针对性地将提取梅尔倒谱系数（MFCC）过程中的Mel滤波器组换成由linear滤波器和逆Mel滤波器组合的新滤波器组，进而得到基于新滤波器组的修正倒谱特征；最后，使用高斯混合模型（GMM）作为分类器进行分类判别。实验结果表明，修正的倒谱特征能够有效地检测回放语音，其等错误率约为3.45%。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于语音频谱融合特征的手机来源识别

裴安山, 王让定, 严迪群

计算机应用 2018, 38 (3): 884-890. DOI: 10.11772/j.issn.1001-9081.2017071864

摘要（329）

PDF （1084KB）（410）

随着手机录音设备的普及以及各种功能强大且易于操作的数字媒体编辑软件的出现，语音的手机来源识别已成为多媒体取证领域重要的热点问题，针对该问题提出了一种基于频谱融合特征的手机来源识别算法。首先，通过分析不同手机相同语音的语谱图，发现不同手机的语音频谱特征是不同的；然后对语音的频谱信息量、对数谱和相位谱特征进行了研究；其次，将三个特征串联构成原始融合特征，并用每个样本的原始融合特征构建样本特征空间；最后，采用WEKA平台的CfsSubsetEval评价函数按照最佳优先搜索原则对所构建的特征空间进行特征选择，并采用LibSVM对特征选择后的样本特征空间进行模型训练和样本识别。实验部分给出了特征选择后的频谱单一特征和频谱融合特征在23款主流型号的手机语音库上分类的结果。实验结果表明，该算法使用频谱融合特征有效提高了手机品牌类内的平均识别准确率，在TIMIT翻录语音数据库和自建的CKC-SD语音数据库上分别达到99.96%和99.91%；另外，与Hanilci基于梅尔倒谱系数特征的录音设备来源识别算法进行了对比，平均识别准确率分别提高了6.58和5.14个百分点。因此可得本文所提特征可有效提高平均识别准确率，降低手机类内识别的误判率。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于卷积神经网络的翻录语音检测算法

李璨, 王让定, 严迪群

计算机应用 2018, 38 (1): 79-83. DOI: 10.11772/j.issn.1001-9081.2017071896

摘要（531）

PDF （838KB）（379）

针对翻录语音攻击说话人识别系统，危害合法用户的权益问题，提出了一种基于卷积神经网络（CNN）的翻录语音检测算法。首先，通过提取原始语音与翻录语音的语谱图，并将其输入到卷积神经网络中，对其进行特征提取及分类；然后，搭建了适应于检测翻录语音的网络框架，分析讨论了输入不同窗移的语谱图对检测率的影响；最后，对不同偷录及回放设备的翻录语音进行了交叉实验检测，并与现有的经典算法进行了对比。实验结果表明，所提方法能够准确地判断待测语音是否为翻录语音，其识别率达到了99.26%，与静音段梅尔频率倒谱系数（MFCC）算法、信道模式噪声算法和长时窗比例因子算法相比，识别率分别提高了约26个百分点、21个百分点和0.35个百分点。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于噪声一致性的数字语音异源拼接篡改检测算法

阳帆, 严迪群, 徐宏伟, 王让定, 金超, 向立

计算机应用 2017, 37 (12): 3452-3457. DOI: 10.11772/j.issn.1001-9081.2017.12.3452

摘要（433）

PDF （908KB）（596）

异源拼接是一种常见的数字语音篡改行为，其主要借助音频编辑软件将不同场景中录制的语音片段拼接在一起，以达到改变语音语义的目的。考虑到不同场景中所包含的背景噪声特性往往存在差异，提出了一种基于噪声一致性的数字语音异源拼接篡改检测算法。首先，采用时间递归平均（TRA）算法提取待检测语音中所含噪声；然后，通过突变点检测（CPD）算法检测噪声方差是否存在突变来判定待检测语音是否经过篡改，并对篡改位置作出定位。实验仿真结果表明，所提算法能对数字语音中的异源篡改位置进行有效检测。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于同态补偿翻拍图像的方向预测方法

谢哲王让定严迪群刘华成

计算机应用 2014, 34 (9): 2687-2690. DOI: 10.11772/j.issn.1001-9081.2014.09.2687

摘要（446）

PDF （769KB）（506）

为抵抗翻拍图像对人脸识别等认证系统的攻击，提出一种人脸图像梯度方向预测算法。通过自适应高斯同态滤波进行光照补偿增强真实活体图像与翻拍图像的对比度，用八方向Sobel算子与像元卷积方向预测，并使用支持向量机(SVM)分类器设计图像分类器判别两类图像。抽取国内外数据库(南京航空航天大学与耶鲁大学人脸库)活体人脸与翻拍人脸共522张进行实验，检测率达到99.51%；另用三星Galaxy Nexus手机拍摄261张真实人脸，同时进行翻拍，得到样本库522张人脸，实验检测率达到98.08%，特征提取用时167.04s。结果表明能有效地检测分类出真实人脸照片与翻拍假冒照片，并具有较高的特征提取效率。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于噪声一致性的数字语音异源篡改检测

阳帆严迪群徐宏伟王让定金超向立

录用日期: 2017-06-15

Select

12. DPCS2017+8+基于语音频谱融合特征的手机来源识别

裴安山王让定严迪群

录用日期: 2017-08-10

Select

13. DPCS2017+15+一种基于CNN的翻录语音检测算法

李璨王让定严迪群

录用日期: 2017-08-20